52 research outputs found
OcWikiDisc : a Corpus of Wikipedia Talk Pages in Occitan
This paper presents OcWikiDisc, a new freely available corpus in Occitan, as well as language identification experiments on Occitan done as part of the corpus building process. Occitan is a regional language spoken mainly in the south of France and in parts of Spain and Italy. It exhibits rich diatopic variation, it is not standardized, and it is still low-resourced, especially when it comes to large downloadable corpora. We introduce OcWikiDisc, a corpus extracted from the talk pages associated with the Occitan Wikipedia. The version of the corpus with the most restrictive language filtering contains 8K user messages for a total of 618K tokens. The language filtering is performed based on language identification experiments with five off-the-shelf tools, including the new fasttext's language identification model from Meta AI's No Language Left Behind initiative, released in July 2022.Peer reviewe
TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français
International audienceLe corpus TALC-sef (TAgged Literary Corpus in Serbian, English, French) est un corpus parallèle d'ouvrages littéraires en serbe, anglais et français, étiquetés en parties du discours et librement consultables via une interface en ligne. Il a été constitué par l'Université d'Arras, en collaboration avec l'Université Lille 3 et l'Université de Belgrade, dans une perspective d'études comparées en stylistique et linguistique. Le corpus TALC-sef représente au total plus de 2 millions de mots, il intègre notamment un corpus étiqueté, corrigé manuellement pour la langue serbe, de 150 000 mots. Dans cet article, nous présentons le mode de constitution du corpus parallèle dans son ensemble, puis nous nous attachons plus spécifiquement à l'élaboration du sous-corpus serbe étiqueté. Nous détaillons les choix linguistiques et techniques sous-jacents à la constitution de ce sous-corpus, qui vient compléter l'offre existante pour la linguistique sur corpus en serbe: à ce jour, le seul corpus librement disponible consiste en une traduction du roman 1984 de G. Orwell (100 000 mots), alors que nous proposons un corpus d'œuvres écrites à l'origine en Serbe, de 150 000 mots. La constitution de ce sous-corpus a permis l'élaboration de modèles d'étiquetage automatique pour trois étiqueteurs syntaxiques, dont Treetagger, TnT et BTagger, le plus efficace d'entre eux. Enfin, nous présentons les perspectives d'évolution du corpus existant, en termes d'enrichissement des annotations syntaxiques (analyses en dépendance en parallèle sur les trois langues), ainsi que les apports d'un tel corpus parallèle étiqueté pour la linguistique du français
Mise au point d'une méthode d'annotation morphosyntaxique fine du serbe
International audienceDevelopping a method for detailed morphosyntactic tagging of Serbian This paper presents an experience in detailed morphosyntactic tagging of the Serbian subcorpus of the parallel Serbian-French-English ParCoLab corpus. We enriched an existing POS annotation with finer-grained morphosyntactic properties in order to prepare the corpus for subsequent parsing stages. We compared three approaches: 1) manual annotation; 2) pre-annotation with a tagger trained on Croatian, followed by manual correction; 3) retraining the model on a small validated sample of the corpus (20K tokens), followed by automatic annotation and manual correction. The Croatian model maintains its global stability when applied to Serbian texts, but due to the differences between the two tagsets, important manual interventions were still required. A new model was trained on a validated sample of the corpus: it has the same accuracy as the existing model, but the observed acceleration of the manual correction confirms that it is better suited to the task than the first one. MOTS-CLES : Annotation morphosyntaxique, corpus d'entraînement, serbe.Cet article présente une expérience d'annotation morphosyntaxique fine du volet serbe du corpus parallèle ParCoLab (corpus serbe-français-anglais). Elle a consisté à enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques fins, afin de préparer une étape ultérieure de parsing. Nous avons comparé trois approches : 1) annotation manuelle ; 2) pré-annotation avec un étiqueteur entraîné sur le croate suivie d'une correction manuelle ; 3) ré-entraînement de l'outil sur un petit échantillon validé du corpus, suivi de l'annotation automatique et de la correction manuelle. Le modèle croate maintient une stabilité globale en passant au serbe, mais les différences entre les deux jeux d'étiquettes exigent des interventions manuelles importantes. Le modèle ré-entraîné sur un échantillon de taille limité (20K tokens) atteint la même exactitude que le modèle existant et le gain de temps observé montre que cette méthode optimise la phase de correction
Immobilization of biocatalysts for enzymatic polymerizations:Possibilities, advantages, applications
Biotechnology also holds tremendous opportunities for realizing functional polymeric materials. Biocatalytic pathways to polymeric materials are an emerging research area with not only enormous scientific and technological promise, but also a tremendous impact on environmental issues. Many of the enzymatic polymerizations reported proceed in organic solvents. However, enzymes mostly show none of their profound characteristics in organic solvents and can easily denature under industrial conditions. Therefore, natural enzymes seldom have the features adequate to be used as industrial catalysts in organic synthesis. The productivity of enzymatic processes is often low due to substrate and/or product inhibition. An important route to improving enzyme performance in non-natural environments is to immobilize them. In this review we will first summarize some of the most prominent examples of enzymatic polymerizations and will subsequently review the most important immobilization routes that are used for the immobilization of biocatalysts relevant to the field of enzymatic polymerizations. (C) 2011 Elsevier Ltd. All rights reserved
Isolation and Chemical Profile of Thymus Serpyllum L. and Lavandula Angustifolia Mill. Essential Oils
Aim of this study was to isolate essential oil from two different plants, Thymus serpyllum L. and Lavandula angustifolia Mill., as well to investigate their chemical composition. Essential oil was isolated by hydrodistillation, while chemical composition was established by GC-MS analysis. Obtained results showed that much more compounds were detected in Lavandula angustifolia Mill. than in Thymus serpyllum L. essential oil. Dominant compounds in Lavandula angustifolia Mill. were linalool (54.24%), eucalyptol (17.97%) and endo-borneol (13.36%), while thymol (37.37%), β-bisabolene (6.98%), germacrene D (6.68%) and trans-caryophyllene (6.47%) dominated in Thymus serpyllum L. essential oil
Efikasnost fungicida za suzbijanje prouzrokovača rđaste mrežavosti plodova breskve u Srbiji
Rusty Spot has long been known as a harmful peach disease in many parts of the
world. During the past several years, rusty spot infection of the late-maturing peach cultivars
(Summerset, Suncrest, Fayette and O’Henry) caused significant yield losses in Serbia.
Although the etiology of the disease is still unknown, there are numerous studies attempting
to set a strategy for its control and recommend appropriate chemical and other peach
protection methods. However, because of specific environmental conditions in Serbia, recommended
protection method using repeated fungicide treatments, starting from petal
fall, did not prove to be efficient and the rate of infection in some susceptible peach cultivars
reached 100%. In 2003 and 2004 a field trial was conducted in order to test the efficacy
of fungicides (a.i. kresoxim-methyl, flusilazole and sulfur) for the efficient control of
Rusty Spot epidemics. The trial was carried out under conditions of natural infection on
the peach cv. Summerset at the locality of Bela Crkva, Serbia. In the untreated control plots,
high disease incidence was recorded with the percentage of affected fruit surface ranging
from 33.5% in the first, up to the 35.4% in the second year of the trail. Among fungicides
included in the trial, kresoxim-methyl proved to be the most efficient (90.25% in the first
and 91.12% in the second year of the trial), flusilazole exhibited lower efficacy (87.28% and
80.61%, respectively) while sulfur was the least efficient (82.33% and 80.30%, respectively).
Determination of the most efficient fungicide for the peach rusty spot control in Serbia provides
basic information for further investigations which will include optimization of treatment
terms, as well as additional agro-technical control measures.Rđasta mrežavost plodova breskve odavno je poznato i ekonomski značajno oboljenje
u mnogim delovima sveta. U Srbiji tokom proteklih godina ovo oboljenje nanosi značajne
štete na poznim sortama breskve (Summerset, Suncrest, Fayette i O’Henry). Mada etiologija
bolesti nije poznata, brojna istraživanja u mnogim delovima sveta pokušavaju da uspostave
strategiju za kontrolu i preporuče odgovarajuće hemijske i druge metode zaštite breskve.
U agroekološkim uslovima Srbije strategija primenjena u svetu, da suzbijanje prouzrokovača
rđaste mrežavosti treba sprovoditi u višekratnim tretmanima od fenofaze precvetavanja,
nije dala zadovoljavajuće rezultate. U pojedinim godinama zaraza plodova osetljivih sorti
breskve dostiže 100%. U periodu od 2003. do 2004. godine, ispitivana je efikasnost tri fungicida
(kresoksim-metil, fluzilazol i elementarni sumpor) u cilju iznalaženja mogućnosti uspešnije
zaštite breskve od prouzrokovača rđaste mrežavosti plodova. Ogled je izveden na
breskvi, sorte Summerset, u uslovima prirodne zaraze na lokalitetu Bela Crkva. Intenzitet zaraze
rđaste mrežavosti plodova na osnovu procenta zahvaćene površine plodova, u kontrolnim
parcelama kretao se od 33,5% u prvoj do 35,4% u drugoj godini ispitivanja. Tokom
obe godine ispitivanja kresoksim-metil ispoljio je najveću efikasnost (90,25% u prvoj, odnosno
91,12% u drugoj godini ispitivanja), nižu fluzilazol (87,28%, odnosno 87,61%) i najnižu
elementarni sumpor (82,33%, odnosno 80,30%). Određivanje fungicida sa najefikasnijim delovanjem
prema prouzrokovaču rđaste mrežavosti plodova breskve u Srbiji predstavlja preduslov
za dalja ispitivanja koja će uključiti pre svega optimizaciju rokova fungicidnih tretmana
kao i određivanje drugih agrotehničkih mera kontrole
Proučavanje mogućnosti mikrotalasne polimerizacije monomera na osnovu obnovljivih sirovina
Polylactide belongs to the biodegradable and biocompatible polymers, and degrade
to harmless component, lactic acid, which allows their use in various areas. The
development of new methods for the synthesis of polylactide can further extend the
application of this polymer and makes its use more economical. The use of microwaves
in the synthesis of the polymer can reduce the polymerization time of only 10 to 30
minutes and save a large amount of energy. In this paper, polylactide is synthesized in a
microwave reactor, using a frequency of 2,45 GHz and a power of 150 W. FITR
analysis confirmed the structure of the resulting polylactide and the thermal properties
were studied using differential scanning calorimetry.Polilaktid spada u grupu biorazgradivih i biokompatibilnih polimera i može se
razložiti na neškodljivu komponentu, mlečnu kiselinu, što omogućava njegovu primenu u
najrazličitijim oblastima. Razvoj novih metoda sinteze polilaktida može proširiti područje
primene ovog polimera i učiniti njegovu upotrebu ekonomičnijom. Upotreba mikrotalasa
u sintezi polimera može skratiti vreme polimerizacije na svega 10 do 30 minuta štedeći
veliku količinu energiju. U ovom radu polilaktid je sintetisan u mikrotalasnom reaktoru,
koristeći frekvenciju od 2.45 GHz i snagu od 150 W. FTIC analiza je potvrdila strukturu
dobijenog polilaktida, a toplotna svojstva su proučavana metodom diferencijalne
skenirajuće kalorimetrije.Vrednost temperatura prelaska u staklasto stanje i temperatura
kristalizacije dobijenog polimera zavise od molskog odnosa monomera (L-laktida) i
katalizatora (kalaj-oktoata)
Ispitivanje toplotnih svojstava nanokompozitnih polimernih materijala na osnovu biljnih sirovina
Environmental friendliness and functionality have made biopolymers one of the
most interesting materials today. In order to broadening their application, there is need
for improving their poor mechanical and thermal properties by using reinforce effect of
inorganic nanoparticles. In this paper, thermal properties of nanocomposites based on
poly(lactide) (PLA) and silicon dioxide were investigated using the differential scanning
calorimetry (DSC). The obtained results showed that the addition of nanoparticles
causes a change in the values of melting and crystallization temperatures of
nanocomposites. Significant influence on the glass transition temperature was not
observed.Ekološka prihvatljivost i funkcionalnost biopolimera učinila ih je jednima od
najtraženijih materijala današnjice. Njihovu veću primenu ograničavaju slaba mehanička i
toplotna svojstva. Kako bi se poboljšala primenska svojstva biopolimera oni se kombinuju
sa neorganskim česticama gradeći nanokompozite. U ovom radu ispitivana su toplotna
svojstva nanokompozita na osnovu poli(laktida) (PLA) i silicijum(IV)oksida. Dobijeni
rezultati su pokazali da dodatak nanočestica dovodi do promene temperature topljenja,
porasta temperature kristalizacije, pri čemu nije uočen značajan uticaj nanočestica na
temperaturu prelaska u staklasto stanje nanokompozita poli(laktida)
Optimalni rokovi primene fungicida za suzbijanje Podosphaera leucotricha, prouzrokovača rđaste mrežavosti plodova breskve u Srbiji
Peach rusty spot has regularly occurred in Serbia in recent years, causing significant
economic losses in the production of late maturing cultivars (Summerset, Suncrest, Fayette
and O’Henry). Concerns regarding the etiology of this disease have been solved using molecular
identification and cross-pathogenicity tests, which have proved that peach rusty
spot is caused by Podosphaera leucotricha. The usual recommended strategy for its control,
by multiple treatments starting from petal fall phenophase, has not proved satisfactory in
agro-ecological conditions in Serbia. After testing the fungicide efficacy, a three-year study
was carried out to determine the precise treatment terms and make the control of P. leucotricha
more efficient.
The investigation was conducted in the conditions of natural infection in a Summerset
cultivar orchard at the locality of Bela Crkva, during the period 2006-2008. Nine different
variants of both single and mixed treatments were tested, covering six defined peach
growth phenophases - from green top, until the phenophase of second fruit falling. In the
conditions of high levels of natural infection in the control plots, in all three investigation
years the most efficient was the variant in which kresoxim-methyl was applied three times: in green top, pink bud and full bloom phenophases (91.69 - 91.92%), followed by the variant
of treatments in the phenophases of rose bud, full bloom and petal fall (86.3-87.87%)
and the variant of two treatments, performed in the phenophases of pink bud and full bloom
(79.3-83.09%). The other tested variants showed significantly lower efficiency. The results
obtained could significantly contribute to better peach fruit production, without losses
caused by peach rusty spot which is commercially very important disease in Serbia.Rđasta mrežavost plodova breskve poslednjih godina u Srbiji redovno se javlja i u proizvodnji
poznih sorti (Summerset, Suncrest, Fayette i O’Henry) nanoseći značajne ekonomske
gubitke. Nedoumice u pogledu etiologije ove bolesti razrešene su na osnovu molekularne
identifikacije i unakrsnih testova patogenosti čime je dokazano da rđastu mrežavost
breskve izaziva Podosphaera leucotricha. Strategija kontrole P. leucotricha primenjena u svetu,
po kojoj suzbijanje treba sprovoditi u višekratnim tretmanima od fenofaze precvetavanja,
nije dala zadovoljavajuće rezultate u agroekološkim uslovima Srbije. Nakon izvršenih
ispitivanja efikasnosti fungicida, obavljeno je trogodišnje istraživanje u cilju određivanja
preciznih rokova tretiranja breskve radi uspostavljanja efikasne kontrole P. leucotricha.
Ispitivanje je obavljeno u periodu od 2006. do 2008. godine, u zasadu breskve sorte
Summerset, u uslovima prirodne zaraze na lokalitetu Bela Crkva. Testirano je devet različitih
varijanti, koje su se sastojale iz kombinovanih i pojedinačnih tretiranja, tako da je pokriven
period od šest definisanih fenofaza razvoja breskve, počevši od fenofaze zeleni vrh do fenofaze
drugo opadanje plodova. U uslovima visokog nivoa prirodne zaraze u kontrolnim parcelama,
najvišu efikasnost u sve tri godine ispitivanja ispoljila je varijanta u kojoj je kresoksim-
metil primenjivan tri puta, u fenofazi zeleni vrh, roze pupoljak i cvetanje (91,69-91,92%),
odmah zatim varijanta u kojoj su izvođeni tretmani u fenofazi roze pupoljak, cvetanje i precvetavanje
(86,3-87,87%) i varijanta u okviru koje su bila vršena dva tretmana u fenofazi roze
pupoljak i cvetanje (79,3-83,09%). Ostale varijante u ogledu ispoljile su znatno nižu efikasnost.
Dobijeni rezultati značajno doprinose poboljšanom načinu proizvodnje breskve bez
gubitaka izazvanih rđastom mrežavosti ploda, ekonomski sve značajnijeg oboljenja u Srbiji
Position et structure du groupe adjectival en serbe : une approche empirique
International audienceEn serbe, l'adjectif est canoniquement antéposé à sa tête nominale (cf. puna kuća lit. 'pleine maison', 'maison pleine'), mais il peut également être postposé (cf. kuća puna dece lit. 'maison pleine enfants.GEN', 'maison pleine d'enfants'). Cette capacité adjectivale n'est cependant pas traitée dans les grammaires de référence (cf. Stanojčić et Popović, 2012 ; Mrazović, 2009), qui se contentent de décrire la structure canonique du GN, sans évoquer cet ordonnancement alternatif. Dans le but de proposer une modélisation plus complète de ce phénomène, nous nous servons d'un treebank pour identifier, extraire et analyser les occurrences des GA à l'intérieur d'un GN. À notre connaissance, il s'agit de la première étude empirique de ce sujet en serbe. Cette étude est basée sur des critères syntaxiques liés à la structure du GA : présence ou absence de dépendants de l'adjectif, leur nature et position par rapport à l'adjectif. Nous examinons également les effets de deux principes syntaxiques globaux qui se sont montrés utiles à l'étude de la place de l'adjectif dans les langues romanes : le poids syntaxique et la minimisation de la longueur des dépendances (dependency length minimization, dorénavant DLM) (cf. Abeillé et Godard, 1999 ; Thuilier, 2012 ; Gulordava et Merlo, 2015 ; Gulordava et al., 2015). Le premier correspond à la tendance des dépendants syntaxiquement complexes (lourds) à se trouver en postposition, alors que le deuxième exprime la tendance observée des langues à disposer les dépendants autour de leur gouverneur de sorte à minimiser la longueur des dépendances. Notre analyse est basée sur le treebank ParCoTrain-Synt (Miletic, 2018). Ce corpus de 101 000 tokens dispose d'annotations syntaxiques et morphosyntaxiques. En nous basant sur ces informations, nous avons effectué une extraction automatique des GA, suivie d'une analyse automatique de leur structure et position. Quant aux effets du poids syntaxique et de la DLM, ils ont été examinés manuellement. Nous avons identifié 9666 occurrences du GA, dont 555 (5,74 %) postposés au nom. Différents patrons de comportement sont observés en fonction de la structure du GA. Les GA minimaux (constitués d'un adjectif sans dépendant) sont majoritairement antéposés (89,6 %), alors que les GA dotés d'un dépendant sous forme d'un nom fléchi ou d'un GP sont très majoritairement postposés (respectivement 92,44 % et 90,81 %). Cette distribution est en accord avec le principe du poids syntaxique et elle explique la différence entre les deux exemples donnés ci-dessus (puna kuća lit. 'pleine maison' vs kuća puna dece lit. 'maison pleine enfants.GEN'). Néanmoins, un GA lourd peut également se trouver en antéposition si le dépendant adjectival est antéposé à son tour (cf. dece puna kuća lit. 'enfants.GEN pleine maison'). Ce patron de linéarisation coïncide avec le principe de la DLM en permettant de minimiser la distance entre l'adjectif et son gouverneur. Il va également dans le sens des observations de Sadler & Arnold (1994), qui notent qu'en anglais le GA doit être à tête finale pour être antéposé. En revanche, les GA dotés d'un dépendant adverbial exhibent un comportement différent : ils préfèrent l'antéposition (55,23 %), et l'adverbe reste antéposé à l'adjectif quelle que soit la position de celui-ci par rapport au nom (cf. sasvim puna kuća lit. 'complètement pleine maison' vs kuća sasvim puna lit. 'maison complètement pleine'). Le fait qu'il s'agit d'un groupe à tête finale semble donc plus décisif que le poids syntaxique pour l'antéposition de ce type de GA. Quant à la DLM, elle ne semble pas affecter son positionnement. Le test χ 2 confirme que la position du GA et le type de dépendant sont statistiquement associés. Les effets du poids syntaxique et de la DLM sont donc moins généralisés en serbe que dans les langues romanes : si le principe du poids permet d'articuler les tendances majoritaires, il n'en explique pas les variations, et les effets de la DLM paraissent sporadiques. Une évaluation systématique de ces deux principes à travers la construction d'un modèle statistique prédictif permettra de mieux évaluer la présence et l'intérêt de ces phénomènes en serbe. Une autre piste possible consiste à confronter nos données à la Dependency Locality Theory (Gibson, 2000) dans le but d'évaluer sa capacité à expliquer les comportements observés. Néanmoins, ce travail nous a permis d'établir une première quantification de la position du GA en serbe et d'aboutir ainsi à une description plus complète du comportement du GA dans cette langue
- …